公司测试集群因为有好几个项目组的同事都在用,时不时会出一些问题
昨天下班前,集群报警
CDH中查看主机状态
datanode128出现:该主机与 Cloudera Manager Server 失去联系的时间过长。 该主机未与 Host Monitor 建立联系。
运行状态检测出现问题:
几乎所有组件处于警告状态,基本可以确定是交换内存的问题,如果内存足够大,可以直接取消交换内存
查看节点agent 状态:
1 | [root@datanode128 ~]# /data2/CM/cm-5.13.3/etc/init.d/cloudera-scm-agent status |
解决办法:删除了pid文件,重新增加节点,将swappiness设置为0(不能用VIM设置,用sysctl -w vm.swappiness=0
),swappiness文件有一些特性,这边不展开。